xml - Lua、XML、UTF-8

ruby - 从 Ruby 中的字符串中删除非 UTF 字符？

如何从ruby字符串中删除非UTF8字符？我有一个字符串，其中包含例如“xC2”。我想从字符串中删除该字符，使其成为有效的UTF8。这个:text.gsub!(/\xC2/,'')返回错误:incompatibleencodingregexpmatch(ASCII-8BITregexpwithUTF-8string)我也在查看text.unpack('U*')和string.pack，但没有得到任何结果。最佳答案您可以为此使用编码。text.encode('UTF-8',:invalid=>:replace,:undef=>

ruby - 我怎样才能避免在 Ruby 1.9 中的每个 UTF-8 文件的顶部放置神奇的编码注释？

我有一个Rails项目，里面有很多西里尔字符串。它在Ruby1.8上运行良好，但Ruby1.9假定源文件是US-ASCII编码的，除非您在源文件顶部提供#encoding:utf-8注释。此时文件不被视为US-ASCII。是否有更简单的方法告诉Ruby“此应用程序是UTF8编码的。请将所有和任何包含的源文件视为UTF8，除非另有声明”？更新:我写了“Howtoinserttheencoding:UTF-8directiveautomaticallyinRuby1.9files”，它会在需要时自动附加编码指令。最佳答案我觉得你可以

UTF-8 ruby code section encoding ruby-1.9

ruby `encode' : "\xC3"从 ASCII-8BIT 到 UTF-8 (Encoding::UndefinedConversionError)

tvdb中的汉尼拔剧集里有奇怪的角色。例如:Œuf于是ruby吐出:./manifesto.rb:19:in`encode':"\xC3"fromASCII-8BITtoUTF-8(Encoding::UndefinedConversionError)from./manifesto.rb:19:in`to_json'from./manifesto.rb:19:in`'第19行是:puts@tree.to_json有没有办法处理这些非utf字符？我宁愿不替换它们，而是转换它们？还是无视他们？我不知道，感谢任何帮助。奇怪的是脚本通过cron运行良好。手动运行它会产生错误。

UTF-8 amp section code ruby encoding

ruby - 魔术注释(#Encoding : utf-8 ) in ruby work?

ruby中的神奇注释是如何工作的？我在说:#Encoding:utf-8这是预处理指令吗？这种结构还有其他用途吗？最佳答案源文件顶部的Ruby解释器说明-这称为魔法注释。在处理您的源代码之前，解释器会读取这一行并设置正确的编码。我相信对于解释语言来说这很常见。至少Python使用相同的方法。您可以通过多种不同的方式指定编码(其中一些可以被编辑器识别):#encoding:UTF-8#coding:UTF-8#-*-coding:UTF-8-*-您可以在thisarticle中阅读有关源编码的一些有趣内容.我所知道的唯一具有类似结

utf-8 ruby section encoding

ruby-on-rails - 将任何编码的字符串强制转换为 UTF-8

在我的Rails应用程序中，我正在使用来自世界各地的RSS提要，并且一些提要具有不在UTF-8中的链接。原始提要链接不受我控制，为了在应用程序的其他部分使用它们，它们需要采用UTF-8。如何检测编码并转换为UTF-8？最佳答案 ruby1.9“强制”编码很容易，但是它不会转换字符，只是改变编码:str=str.force_encoding('UTF-8')str.encoding.name#=>'UTF-8'如果要进行转换，使用encode:beginstr.encode("UTF-8")rescueEncoding::Undef

UTF-8 ruby-on-rails section code ruby character-encoding

Ruby - UTF-8 文件编码

我们都知道“神奇”#encoding:utf-8行。但是我已经看到了其他几种替代符号，其中一些非常疯狂。你知道或使用过这些吗？是否有一些更通用的可接受规则？编辑:好的，显然有3种方法:#encoding:UTF-8#coding:UTF-8#-*-coding:UTF-8-*-(更多信息在http://blog.grayproductions.net/articles/ruby_19s_three_default_encodings) 最佳答案不，没有“恰好3种方式”来指定“神奇评论”——它们的数量是无限的。根据JEG2，第一行包

UTF-8 Ruby section coding unicode ruby-1.9

ruby - 读取文件时如何避免被 UTF-8 BOM 绊倒

我正在使用最近添加了UnicodeBOMheader(U+FEFF)的数据提要，现在我的rake任务被它搞砸了。我可以使用file.gets[3..-1]跳过前3个字节，但是是否有更优雅的方式来读取Ruby中的文件，它可以正确处理这个问题，无论BOM是有没有？最佳答案在ruby1.9.2中，您可以使用模式r:bom|utf-8text_without_bom=nil#definethevariableoutsidetheblocktokeepthedataFile.open('file.txt',"r:bom|utf-8")

UTF-8 绊倒 code section text_without_bom ruby file unicode byte-order-mark

ruby-on-rails - Ruby/Rails CSV 解析，UTF-8 中的无效字节序列

我正在尝试解析从Excel电子表格生成的CSV文件。这是我的代码require'csv'file=File.open("input_file")csv=CSV.parse(file)但是我得到这个错误ArgumentError:invalidbytesequenceinUTF-8我认为错误是因为Excel将文件编码为ISO8859-1(Latin-1)而不是UTF-8谁能帮我解决这个问题提前致谢。最佳答案您需要告诉Ruby该文件在ISO-8859-1中。将您的文件打开行更改为:file=File.open("input_file

UTF-8 ruby-on-rails section code ruby csv

ruby - 使用 Ruby 解析 XML

我是使用XML的新手，但刚好有需要。我得到了一种常用的(对我而言)XML格式。标签内有冒号。1234TheName这是一个大文件，其中包含的内容远不止于此，但我希望有人会熟悉这种格式。有谁知道处理此类XML文档的方法吗？我宁愿不只是编写一种解析文本的蛮力方法，但我似乎无法使用REXML或Hpricot取得任何进展，我怀疑这是由于这些不寻常的标签。我的ruby代码:require'hpricot'xml=File.open("myfile.xml")doc=Hpricot::XML(xml)(doc/:things).eachdo|thg|['Id','Name'].eachdo|el|

ruby code Name 34 xml-parsing

ruby - 使用 utf-8 编码写入和读取文件

我一直在阅读所有与UTF-8相关的问题和博客文章，并且在test.rb文件中有以下示例:#encoding:UTF-8File.open("test.txt","w")do|f|f.write"test©foo"endFile.open("test.txt","r")do|f|putsf.readend这非常有效。是在文件中正确生成©符号，并将©读回给我并将其打印在屏幕上。但是当我在我的实际项目中使用相同的代码时，我将其写入文件而不是©符号:\u00A9FWIW:我在针对我的代码运行rspec(v1.2.9)测试时得到了这个结果。规范生成一个带有©符号的文件，然后读回该文件以检查内容。

utf-8 ruby 34 section